04. 实现
实现:MC 预测(状态值)
你可以在下方找到(首次经历)MC 预测(状态值)的伪代码。(你可以选择实现首次经历或所有经历 MC 方法。在二十一点游戏中,首次经历和所有经历方法返回的结果一样。)

如果你想详细了解首次经历和所有经历 MC 方法之间的区别,建议你阅读此论文的第 3 部分。结果在第 3.6 部分进行了总结。作者指出:
- 所有经历 MC 存在偏差,而首次经历 MC 不存在偏差(请参阅 Theorems 6 和 7)。
- 一开始,所有经历 MC 具有更低的均方误差 (MSE),但是随着经历更多的阶段,首次经历 MC 的均方误差更低(请参阅 Corollary 9a 和 10a,以及图 4)。
当每个状态的经历次数接近无穷大时,首次经历和所有经历方法都保证会收敛于真值函数。(换句话说,只要智能体在每个状态获取足够的经验,值函数估值将非常接近真值。)对于首次经历 MC,收敛性遵守大数定律,详情请参阅该教科书的第 5.1 部分。
请在下个部分完成 Monte_Carlo.ipynb
的第 0 部分:探索 BlackjackEnv 和第 1 部分:MC 预测:状态值。请记得保存内容!
你可以查看 Monte_Carlo_Solution.ipynb
的相应部分,检查你的解决方案是否正确。